Destilación on-policy con guía de trayectorias futuras
Mejora el razonamiento de LLMs con TOPD: destilación on-policy con guía futura aumenta precisión del 47.8% al 52.2%.
Mejora el razonamiento de LLMs con TOPD: destilación on-policy con guía futura aumenta precisión del 47.8% al 52.2%.